共计 1028 个字符,预计需要花费 3 分钟才能阅读完成。
MarkItDown
是微软开源的 Python 一站式文档转 Markdown 神器,能轻松将各种文档转换为 Markdown 格式,特别适合用于文本分析、内容索引和文档转换等场景,未来是 Markdown 一统文档格式了吗?
MarkItDown 支持多种文件格式的转换:
- PDF 文件(.pdf)
- PowerPoint 演示文稿(.pptx)
- Word 文档(.docx)
- Excel 表格(.xlsx)
- 图片(支持提取 EXIF 元数据和 OCR 文字识别)
- 音频文件(支持提取元数据和语音转文字)
- HTML 网页(对 Wikipedia 等网站有特殊优化)
- 其他文本格式(csv、json、xml 等)
简单使用
环境准备
MarkItDown 要求 Python 3.10 或更高版本。这里使用 venv 环境配置方案:
# 创建虚拟环境
python -m venv myenv
# 激活虚拟环境 Windows
.\myenv\Scripts\activate
# 安装 MarkItDown
pip install markitdown
相关阅读: 为什么在 Python 中使用虚拟环境?
使用方法
from markitdown import MarkItDown
markitdown = MarkItDown() # 初始化转换器
# PDF 文档
pdf_result = markitdown.convert("a.pdf")
print(pdf_result.text_content)
# Word 文档
docx_result = markitdown.convert("a.docx")
print(docx_result.text_content)
# Excel 表格
xlsx_result = markitdown.convert("a.xlsx")
with open("a.md", "w", encoding="utf-8") as f:
f.write(xlsx_result.text_content)
# 处理流式数据
with open("a.pdf", "rb") as f:
result = markitdown.convert_stream(f)
print(result.text_content)
MarkItDown 作为一个强大的文档转换工具,无论是在自动化文档处理、内容分析还是数据提取场景中,都是一个值得收藏的工具。它不仅能满足基础的文档转换需求,还能通过其强大的扩展性满足各种特殊需求。
下载地址
GitHub 仓库地址:https://github.com/microsoft/markitdown
正文完